人工智能语音技术

分享自 洪青阳(博士 厦门大学副教授 天聪智能创始人).

人工智能技术及行业应用

  • 应用层
    • 安防
    • 金融
    • 自动驾驶
    • 医疗
  • 技术层(通用技术 - 算法 - 底层架构)
    • 图像识别 - 机器学习 - Tensor Flow
    • 语音识别 - 深度学习 - Kaldi/CNTK
    • 自然语言理解 - 增强学习 - Caffe
    • 知识图谱 - 对抗学习 - Torch
  • 基础层(计算能力 - 数据质量)
    • 大数据 - 图像数据
    • GPU - 语音数据
    • 云计算 - 交通数据
    • 神经网络芯片 - 医疗数据

人工智能技术趋势

  • 感知计算

    视觉、语音识别率超过97%,感知层基础技术基本具备。

  • 认知计算

    自然语言理解是人工智能现阶段需要重点突破的技术,目前在客服和机器人领域有较好的应用。

  • 无监督学习

    现有深度学习严重依赖标注数据,一旦无监督学习突破,人工智能必将进入新的阶段。

人工智能应用趋势

  • 机器感知(视觉、语音)

    应用在安防、金融、智能家居、机器人,在5年内普及。

  • 机器感知(自然语言理解)

    未来较大的应用会在医疗、证券、法律等领域,预计在5~10年内普及。

  • 人机结合

    无论是工业机器人还是服务机器人,人机结合将是未来一段时间的常态。

合作项目

  • 华为P20/Mate20手机(语音识别 + 声纹识别) 小艺
  • 语音识别框架

TensorFlow - Lite 在移动端的解决方案技术分解及最新进展

分享自 王玉成(谷歌技术专家 物联网GDE)

  • TensorFlow Lite 支持一系列核心运算符,包括量化和浮点运算,针对移动平台进行了调整。结合了预融合激活和偏置,以进一步提高性能和量化精度。此外,TensorFlow Lite还支持在模型中使用自定义操作。
  • TensorFlow Lite基于FlatBuffers定义了一种新的模型文件格式。
    • FlatBuffers是一个开源、高效的跨平台序列化库。它类似于ProtoBuffer,但主要区别在于FlatBuffers在访问数据之前不需要对辅助表示进行解析/解包过程,通常与每个对象的内存分配相结合。此外,FlatBuffers代码占用空间ProtoBuffer小一个数量级。
  • TensorFlow Lite拥有一个新的移动优化解释器,其主要目标是保持应用程序的精简和快速。解释器使用静态图形排序和自定义(动态性小)内存分配器来确保最小的负载、初始化和执行延迟
  • 尺寸较小: 当所有支持的操作符链接时,TensorFlow Lite小于300KB,当仅适用支持InceptionV3Mobilenet所需的操作符时,小于200KB
  • TensorFlow Lite提供了一个利用硬件加速的接口(如果在设备上可用)。它通过Android神经网络API实现,可在Android8.1(API级别27)及更高版本上使用。

使用神经网络理解视频信息

分享自 郑炜(谷歌技术专家 机器学习GDE 来自厦门ABB中压技术中心)

机器视觉: 理解图片、视频内容

  • 机器视觉可以自动化依赖人类视力的工作
  • 机器视觉将原始图片处理成数字信息,在数字信息的基础上进行其他任务:
    • 图片分类
    • 人脸识别
    • 3D场景重建
    • 物体跟踪
    • 自动/辅助驾驶
  • 定义特征是机器视觉中很重要的一个步骤

机器视觉: 定义特征

  • 特征是机器视觉的重要基础
  • 传统方法是人为定义,例如拐角、边缘、颜色、亮度等等简单的特征
  • 人为定义的特征局限性很大
  • 基于特征,我们可以进行很多操作:对比图像相似度、寻找物体、3D空间重建、镜头畸变调整…

通过训练学习数据中的规律

总结

  • 深度学习依赖大数据,学习复杂的知识
  • 卷积神经网络可高效处理视频、音频信息
  • 各类神经网络结构能有效分类视频